第一章 概率论的基本概念
对于世界上的所有事件,我们都能把它们分成两类:确定性现象和随机现象
对于前者,暂时没什么好讨论的
对于后者,在大量重复的实验中,人们发现虽然它每一次的结果都不确定,但总体结果却呈现出某种规律性,这种固有的、确定的规律性,我们称为统计规律性
统计是什么意思?为什么这里会出现这个词?它和概率论是什么关系?
统计学和概率论是两码事,但是它们关系匪浅。
统计,针对的是实际的数据,比如测量某一年里放晴的天数、计算某个人上学迟到的频率等等,这些都直接对应实际场景,具有很直白的现实意义。
概率,是对事件发生的可能性进行研究,它是更抽象一层的,不需要对应实际的事件,但它可以用来帮助对统计出的数据进行分析。依我拙见,概率是一种从外部揭示事件发生规律的手段,而事件的规律又必须依托大量实际数据来展现,详细来说就是:事件的发生与否被一种我们暂未发现的规律(可以想象成某个数学公式)所掌控,这个规律在操控的同时也会将自身的特征投射在事件上,而统计学就是把这些特征收集起来并整理好,概率论就是试图通过这些特征来反过来逼近事件背后藏着的规律,甚至对规律的行为进行预测。
比如说,在打数模比赛的时候我就发现,在计算数据的平均值、标准差、偏度峰度之类的时候,我们都称其为计算统计量,和概率一点边都不沾。我做过的唯一一道和概率强相关的题只有2024国赛的B题,而那题一个附件(实际数据)也没有:题目已经把统计的事情帮选手干完了,直接给的是统计后的数据。本系列的前大部分章节都是讲的概率论的知识,只有后面少数几章讲的是统计学。
随机试验
此处的试验二字含义很广泛,并不只表示进行科学实验,而是笼统地表示:对某一事物的某一特征进行观察。
随机试验是对随机事件进行反复的观察,要求是得在相同的条件下进行试验,并且在试验前就能明确其结果的所有可能性。
得在相同条件下这一点很好理解,毕竟条件不同的话事件发生的规律会发生变化,而我们是在假定规律不变的情况下进行概率的研究。
但是为什么要在试验前就明确结果的范围呢?如果不明确,这个试验不还是随机的吗,为什么不算是随机试验?
此随机非彼随机,我们口头上常说的”随机“,其实应该是指的不确定事件。没错,不打引号、专业术语的随机试验只是不确定事件的一部分,相当于我们给所有结果随机的事件又分了两类,一类是随机试验,需要满足上面那些条件,另一类是非随机试验,不需要满足那些条件。概率论所研究的主要是前者,而后者就暂时不提了。
样本空间、随机事件
假设有某随机试验
我们知道,随机试验的结果范围是已知的,而这个由可能的结果组成的集合
严格来说,当
的元素是无限且不可列的时候,某些子集不能作为事件。但本系列中将假定谈到事件时碰到的所有集合都不是这种子集。
所以,样本空间
既然事件实质上就是集合,那么我们在集合论那里学过的东西就能派上用场了!
:事件B包含事件A;若 ,则A和B相等 :事件A和事件B的和事件(相当于两个集合的并集) :事件A和事件B的积事件(相当于两个集合的交集) :事件A和事件B的差事件 :事件A和事件B是互斥/互不相容的 :事件A和事件B互为逆事件/对立事件。可以将A的对立事件记为 。
更多的集合论公式,比如交换律结合律之类的,此处不再多言。
频率与概率
写了这么多,概率终于露面了,但在此之前,我们还得了解一下频率。
在相同的条件下进行n次实验,在这n次实验中事件A发生的次数
虽然概率这个概念好像非常自然,但有人可能还会有疑问:概率是实际存在的吗?
比方说,我从宿舍走到教学楼所用的时间,这似乎是不确定的:有时候下雨,时间会长一点,如果马上要上课了,时间就会短很多,但总体而言大概率是在十五分钟左右的。那么如果我把所有会影响到时间的变量都掌握住呢,这样一来岂不是能够精准地预测时间?此时这个概率不就相当于不存在吗,因为最终的时间只可能是我所算出来的这个答案。
我觉得这种想法并不会对概率的必要性构成什么“威胁”(据说这种就是机械唯物主义?)。因为“控制所有变量”在现实中是完全不可能的,这也意味着上述的设想是没有什么意义的,概率在我们人类的世界里仍然并将永远存在下去。
概率的定义里有三条重要的条件:
- 非负性:对任意一个事件A,
- 规范性:对必然事件S,
- 可列可加性:若
,则
以及几条重要的性质:
- (有限可加性)
- 若
,则 - (逆事件的概率)
- (加法公式)
这一条相当于容斥原理
推广后得到:
等可能概型(古典概型)
对于前文所说的试验,如果满足以下这两个条件,我们就称其为等可能概型:
- 样本空间的元素个数是有限的
- 试验中每个基本事件(样本点)发生的可能性相同
“概型”就是概率模型的意思,也就是试验的意思。
等可能概型很直观、容易理解,在概率论的发展初期,人们以它为主要的研究对象,所以我们也称其为古典概型(类似于密码学里的古典密码)
这种每个样本点概率都相同的试验,想必大家都再熟悉不过了,我们小学和中学阶段做过无数此类型的题目,所以我就不做过多叙述了。
等可能概型中事件A的概率的计算公式:
显然,这里的
满足非负性、规范性、有限可加性,但是它是否满足可列可加性? 一般来说,有限可加性
可列可加性 (相关的证明超出了我的知识范围故不作解释)。 不过在这里,我们可以假设在
中取无限多个两两互不相容的事件,而 本身的子集是有限的,所以这无限多个事件里会有无限个不可能事件,概率相加之后仍然等于那些有限个事件的概率之和,所以可以知道此时有限可加性和可列可加性是等价的。
实际推断原理:概率很小的事件在一次试验中实际上几乎是不发生的。
条件概率
在大多数情况下,我们其实研究的并不是单独一个事件的概率,而是两个乃至多个事件综合影响得到的结果。条件概率 指的就是在另一个事件 A 发生的条件/前提下,某个事件 B 发生的概率。
定义式为:
我认为值得一提的是,
和 是一个意思,都是指事件A和事件B同时发生时的概率,A和B都是总事件的一部分,没有先后之分;而 就不一样了,分隔符表示右边的这个A是条件,而不是事件的一部分,此时就有先后之分,但这个”先后“并非时间上的先后,只是逻辑上的而已。
显然,条件概率也能满足非负性、规范性、可列可加性。
由定义式,我们能得到下面这个定理:
乘法定理
可能有人要问:这和定义式不是一回事吗?只不过把分母乘过去了而已,这也要单独作为一个定理吗?
我认为这是因为虽然这两个式子本质上一样,但这是两种写法,代表了不同的含义,或者说是不同的角度。一种考虑的是条件概率的本质,另一种考虑的是总体事件的推演。
假设试验
则称是 的一个划分。
像这样对样本空间进行划分,可以更加方便我们表示事件及事件之间的关系。
由前面提到过的各种性质,我们可以得到两个非常常用的公式:
全概率公式
若
则
贝叶斯公式
若
则
我们在使用这些公式的时候会发现,有的时候我们是在”正“着计算概率,有时却是”倒“着计算,这其实就是所谓的 先验概率 和 后验概率 之分。
独立性
为了简化概率的计算,我们把一部分不会对彼此概率产生影响的事件挑出来作为一类,称其两两之间相互独立,很容易就能得到独立的定义式:
若
一些相关的性质:
- 若 A 和 B 相互独立,则
(这条性质直观地表明了:相互独立的事件之间不会影响彼此发生的概率) - 若 A 和 B 相互独立,则
和 、 和 、 和 之间也都相互独立
需要特别注意的一点是:相互独立并不表示A的发生不会影响B,而是表示A的发生不会影响B发生的概率。
我用一道课后习题来作为例子:
在一个盒子里有四个球,编号分别为1号、2号、3号、4号,一个人随机拿出一个球。
事件A:拿出的球是1号或2号
事件B:拿出的球是1号或3号
此时,
则,事件A和事件B的确是相互独立的
显然,事件A的发生对事件B是有影响的,但是没有影响B的概率:
如果A发生了,那么B有一半的概率发生;如果A没有发生,B也还是有一半的概率发生
也即:
独立的概念还可以继续推广:
设 A、B、C 是三个事件,则
这四个条件合在一起,是
为什么这四个条件缺一不可呢?
其实网上已经有了很多精妙的回答,我此处只粗浅地谈一下我的理解:
类似于探讨两个事件独立性时的思路,看 ABC 和 A、B、C 之间的独立性,其实就是看当 A、B、C 发生或不发生对 ABC 的概率的影响。如果只有前三个条件的话,就忽略了三个事件整体之间的影响。
有很多这样的例子,比如说:盒子里有四个球,一个人随机拿出一个。
事件A:拿出的是1或4号;事件B:拿出的是2或4号;事件C:拿出的是3或4号
单看这三个事件,它们两两之间都是相互独立的,如果事件A发生了,这不会影响到我对事件B是否发生的判断;而如果事件A和事件B都发生了,那么就影响到了我对事件C是否发生的判断